自动语音识别(ASR)系统普遍存在,特别是在国内电器语音导航和语音控制的应用中。 ASR的计算核心是已被证明易于对抗性扰动的深神经网络(DNN);容易被攻击者滥用生成恶意输出。为了帮助测试ASR的正确性,我们提出了自动生成BlackBox(无关的DNN)的技术,跨ASR可移植的未标准的对抗性攻击。在对冲ASR测试的大部分工作中侧重于针对目标攻击,即给定输出文本生成音频样本。目标技术不可移植,定制到特定ASR内的DNN(白箱)的结构。相比之下,我们的方法攻击在大多数ASR中共享的ASR管道的信号处理阶段。另外,我们确保通过使用维持人类感知阈值低于人类感知阈值的信号来操纵声学信号,确保产生的对抗性音频样本没有人类的声音差异。我们使用三个流行的ASR和三个输入音频数据集使用输出文本的指标来评估我们技术的可移植性和有效性,以及不同ASR上的原始音频的相似性和攻击成功率。我们发现我们的测试技术是跨ASR的便携式携带的,并具有对原始音频的高成功率,WERS和相似性的对抗的音频样本。
translated by 谷歌翻译
我们解决对象检测中的域适应问题,其中在源(带有监控)和目标域(没有监督的域的域名)之间存在显着的域移位。作为广泛采用的域适应方法,自培训教师学生框架(学生模型从教师模型生成的伪标签学习)在目标域中产生了显着的精度增益。然而,由于其偏向源域,它仍然存在从教师产生的大量低质量伪标签(例如,误报)。为了解决这个问题,我们提出了一种叫做自适应无偏见教师(AUT)的自我训练框架,利用对抗的对抗学习和弱强的数据增强来解决域名。具体而言,我们在学生模型中使用特征级的对抗性培训,确保从源和目标域中提取的功能共享类似的统计数据。这使学生模型能够捕获域不变的功能。此外,我们在目标领域的教师模型和两个域上的学生模型之间应用了弱强的增强和相互学习。这使得教师模型能够从学生模型中逐渐受益,而不会遭受域移位。我们展示了AUT通过大边距显示所有现有方法甚至Oracle(完全监督)模型的优势。例如,我们在有雾的城市景观(Clipart1k)上实现了50.9%(49.3%)地图,分别比以前的最先进和甲骨文高9.2%(5.2%)和8.2%(11.0%)
translated by 谷歌翻译
最近的研究侧重于制定流量预测作为一种时空图形建模问题。它们通常在每个时间步骤构造静态空间图,然后将每个节点连接在相邻时间步骤之间以构造时空图形。在这样的图形中,不同时间步骤的不同节点之间的相关性未明确地反映,这可以限制图形神经网络的学习能力。同时,这些模型在不同时间步骤中使用相同的邻接矩阵时,忽略节点之间的动态时空相关性。为了克服这些限制,我们提出了一种时空关节图卷积网络(StJGCN),用于交通预测在公路网络上的几个时间上限。具体地,我们在任何两个时间步长之间构造预定的和自适应时空关节图(STJG),这代表了全面和动态的时空相关性。我们进一步设计了STJG上的扩张因果时空关节图卷积层,以捕获与多个范围不同的视角的时空依赖关系。提出了一种多范围注意机制来聚合不同范围的信息。四个公共交通数据集的实验表明,STJGCN是计算的高效和优于11个最先进的基线方法。
translated by 谷歌翻译
神经结构搜索(NAS)已被广泛采用设计准确,高效的图像分类模型。但是,将NAS应用于新的计算机愿景任务仍然需要大量的努力。这是因为1)以前的NAS研究已经过度优先考虑图像分类,同时在很大程度上忽略了其他任务; 2)许多NAS工作侧重于优化特定于任务特定的组件,这些组件不能有利地转移到其他任务; 3)现有的NAS方法通常被设计为“Proxyless”,需要大量努力与每个新任务的培训管道集成。为了解决这些挑战,我们提出了FBNetv5,这是一个NAS框架,可以在各种视觉任务中寻找神经架构,以降低计算成本和人力努力。具体而言,我们设计1)一个简单但包容性和可转换的搜索空间; 2)用目标任务培训管道解开的多址搜索过程; 3)一种算法,用于同时搜索具有计算成本不可知的多个任务的架构到任务数。我们评估所提出的FBNetv5目标三个基本视觉任务 - 图像分类,对象检测和语义分割。 FBNETV5在单一搜索中搜索的模型在所有三个任务中都表现优于先前的议定书 - 现有技术:图像分类(例如,与FBNetv3相比,在与FBNetv3相比的同一拖鞋下的1 + 1.3%Imageet Top-1精度。 (例如,+ 1.8%较高的Ade20k Val。Miou比SegFormer为3.6倍的拖鞋),对象检测(例如,+ 1.1%Coco Val。与yolox相比,拖鞋的1.2倍的地图。
translated by 谷歌翻译
Designing accurate and efficient ConvNets for mobile devices is challenging because the design space is combinatorially large. Due to this, previous neural architecture search (NAS) methods are computationally expensive. ConvNet architecture optimality depends on factors such as input resolution and target devices. However, existing approaches are too resource demanding for case-by-case redesigns. Also, previous work focuses primarily on reducing FLOPs, but FLOP count does not always reflect actual latency. To address these, we propose a differentiable neural architecture search (DNAS) framework that uses gradient-based methods to optimize Con-vNet architectures, avoiding enumerating and training individual architectures separately as in previous methods. FBNets (Facebook-Berkeley-Nets), a family of models discovered by DNAS surpass state-of-the-art models both designed manually and generated automatically. FBNet-B achieves 74.1% top-1 accuracy on ImageNet with 295M FLOPs and 23.1 ms latency on a Samsung S8 phone, 2.4x smaller and 1.5x faster than MobileNetV2-1.3[17] with similar accuracy. Despite higher accuracy and lower latency than MnasNet[20], we estimate FBNet-B's search cost is 420x smaller than MnasNet's, at only 216 GPUhours. Searched for different resolutions and channel sizes, FBNets achieve 1.5% to 6.4% higher accuracy than Mo-bileNetV2. The smallest FBNet achieves 50.2% accuracy and 2.9 ms latency (345 frames per second) on a Samsung S8. Over a Samsung-optimized FBNet, the iPhone-Xoptimized model achieves a 1.4x speedup on an iPhone X. FBNet models are open-sourced at https://github. com/facebookresearch/mobile-vision. * Work done while interning at Facebook.… Figure 1. Differentiable neural architecture search (DNAS) for ConvNet design. DNAS explores a layer-wise space that each layer of a ConvNet can choose a different block. The search space is represented by a stochastic super net. The search process trains the stochastic super net using SGD to optimize the architecture distribution. Optimal architectures are sampled from the trained distribution. The latency of each operator is measured on target devices and used to compute the loss for the super net.
translated by 谷歌翻译
While federated learning has shown strong results in optimizing a machine learning model without direct access to the original data, its performance may be hindered by intermittent client availability which slows down the convergence and biases the final learned model. There are significant challenges to achieve both stable and bias-free training under arbitrary client availability. To address these challenges, we propose a framework named Federated Graph-based Sampling (FedGS), to stabilize the global model update and mitigate the long-term bias given arbitrary client availability simultaneously. First, we model the data correlations of clients with a Data-Distribution-Dependency Graph (3DG) that helps keep the sampled clients data apart from each other, which is theoretically shown to improve the approximation to the optimal model update. Second, constrained by the far-distance in data distribution of the sampled clients, we further minimize the variance of the numbers of times that the clients are sampled, to mitigate long-term bias. To validate the effectiveness of FedGS, we conduct experiments on three datasets under a comprehensive set of seven client availability modes. Our experimental results confirm FedGS's advantage in both enabling a fair client-sampling scheme and improving the model performance under arbitrary client availability. Our code is available at \url{https://github.com/WwZzz/FedGS}.
translated by 谷歌翻译
尽管变压器已经开始在视力中占主导地位,但将它们应用于大图像仍然很困难。这样做的一个很大的原因是,自我发场的标记数二次缩放,而令牌数量又随图像大小而倍增。在较大的图像(例如1080p)上,网络中总计算的60%以上仅用于创建和应用注意矩阵。我们通过引入Hydra注意来解决这个问题,这是视觉变压器(VITS)的极有效的关注操作。自相矛盾的是,这种效率来自对其极端的多头关注:通过使用尽可能多的注意力头部,Hydra注意力在代币和没有隐藏常数的特征上是线性的,使其比标准自我注意力要快得多。在现成的VIT-B/16中,代币计数的一倍。此外,Hydra注意力保留了ImageNet上的高精度,在某些情况下实际上可以改善它。
translated by 谷歌翻译
点云注册旨在估计两点云扫描之间的几何变换,在该点对应的估计中是其成功的关键。除了先前通过手工制作或学习的几何特征寻求对应的方法外,最近的点云注册方法还尝试应用RGB-D数据以实现更准确的对应关系。但是,有效地融合了这两种独特方式的几何和视觉信息并不是微不足道的,尤其是对于注册问题而言。在这项工作中,我们提出了一种新的几何感知视觉特征提取器(给出),该提取器采用多尺度的本地线性转换来逐步融合这两种方式,其中深度数据的几何特征是几何依赖于几何依赖的卷积内核来转换RGB数据的视觉功能。最终的视觉几何特征位于典型的特征空间中,由于几何变化引起的视觉差异可缓解,因此可以实现更可靠的对应关系。提出的给出的模块可以很容易地插入最近的RGB-D点云注册框架中。在3D匹配和扫描仪上进行的广泛实验表明,即使没有信件或姿势监督,我们的方法即使在没有通信或姿势的情况下也优于最先进的点云注册方法。该代码可在以下网址获得:https://github.com/514DNA/llt。
translated by 谷歌翻译
半监督对象检测(SSOD)的最新发展显示了利用未标记数据改善对象检测器的希望。但是,到目前为止,这些方法已经假设未标记的数据不包含分布(OOD)类,这对于较大规模的未标记数据集是不现实的。在本文中,我们考虑了一个更实用但具有挑战性的问题,开放式半监督对象检测(OSSOD)。我们首先发现现有的SSOD方法在开放式条件下获得了较低的性能增长,这是由语义扩展引起的,在该语义扩展中,分散注意力的OOD对象​​被错误预测为半监督训练的分布伪标签。为了解决此问题,我们考虑与SSOD方法集成的在线和离线OOD检测模块。通过广泛的研究,我们发现,基于自我监视的视觉变压器的脱机OOD检测器对在线OOD探测器的表现良好,因为它稳健地对伪标记的干扰。在实验中,我们提出的框架有效地解决了语义扩展问题,并在许多OSSOD基准(包括大规模的可可开放图)上显示出一致的改进。我们还在不同的OSSOD条件下验证框架的有效性,包括不同数量的分布类别,不同程度的监督和不同标记集的组合。
translated by 谷歌翻译
建模城市环境中的网络级交通流量如何变化对于运输,公共安全和城市规划中的决策有用。交通流量系统可以视为一个动态过程,随着时间的推移,状态之间(例如,每个道路段的交通量)之间过渡。在现实世界中的流量系统中,诸如交通信号控制或可逆车道更改之类的交通操作动作,该系统的状态受历史状态和交通操作的行动的影响。在本文中,我们考虑了在现实世界中建模网络级交通流量的问题,在现实世界中,可用数据稀疏(即仅观察到交通系统的一部分)。我们提出了Dtignn,该方法可以预测稀疏数据的网络级流量流。 Dtignn将交通系统建模为受交通信号影响的动态图,学习以运输的基本过渡方程为基础的过渡模型,并预测未来的交通状态在此过程中归类。通过全面的实验,我们证明了我们的方法优于最先进的方法,并且可以更好地支持运输中的决策。
translated by 谷歌翻译